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(57) Abstract 

According to the invention, spectral voice characteristics are determined in a natural language expression, whereby the expression 
is digitized and subjected to a wavelet transformation. The speaker-specific characteristics arise from the different transformation steps 
of. the wavelet transformation. Within the scope of a voice synthesis, these characteristics can be compared with characteristics of other 
expressions in order to generate a continuously sounding synthetic voice signal for the human ear. Alternatively, the characteristics can 
also be modified in a targeted manner in order to counteract a perceptive dissonance. 



(57) Zusammenfassung 

Es werden spektrale Sprachcharakteristika in einer nattlrlichsprachlichen AuBerung bestimmt, wobei die AuBerung digitalisiert und 
einer Wavelet-Transformation unterzogen wird, Aus den unterschiedlichen Transformationsstufen der Wavelet-Transformation gehen die 
sprecherspezifischen Charakteristika hervor. Diese Charakteristika kOnnen im Rahmen einer Sprachsynthese mit Charakteristika anderer 
AuBerungen verglichen werden, um ein fur das menschliche Ohr kontinuierlich klingendes synthetisches Sprachsignal zu erzeugen. Altemativ 
konnen die Charakteristika auch gezielt verandert werden, um einer perzeptiven Dissonanz entgegenzuwirken. 
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Beschreibung 

Verfahren und Anordnung zur Bestimmung spektraler 
Sprachcharakteristika in einer gesprochenen Aufierung 

Die Erfindung betrifft ein Verfahren und eine Anordnung zur 
Bestimmung spektraler Sprachcharakteristika in einer 
gesprochenen Aufierung. 

Bei einer konkatenativen Sprachsynthese werden einzelne Laute 
aus Sprachdatenbanken zusammengesetzt . Urn dabei einen fur das 
menschliche Ohr natiirlich klingenden Sprachverlauf zu 
erhalten, sind Diskontinuitaten an den Punkten, wo die Laute 
zusammengesetzt werden (Konkatenationspunkte) zu vermeiden. 
Die Laute sind dabei insbesondere Phoneme einer Sprache oder 
eine Zusammensetzung mehrerer Phoneme. 

Eine Wavelet-Transformation ist aus [1] bekannt. Bei der 
Wavelet-Transformation ist durch ein Wavelet-Filter 
gewahrleistet, daft jeweils ein HochpaiJanteil und ein 
Tiefpaftanteil einer nachf olgenden Transf ormationsstuf e ein 
Signal einer aktuellen Transf ormationsstuf e vollstandig 
wiederherstellen. Dabei erfolgt von einer 
Transf ormationsstuf e zur nachsten eine Reduktion der 
Auflosung des Hochpaftanteils bzw. Tief paJianteils (engl. 
Fachbegriff: "Subsampling" ) . Insbesondere ist durch das 
Subsampling die Anzahl der Transf ormationsstuf en endlich. 

Die Aufgabe der Erfindung besteht darin, ein Verfahren und 
eine Anordnung zur Bestimmung spektraler 

Sprachcharakteristika anzugeben, mit deren Hilfe insbesondere 
eine natiirlich wirkende synthetische Sprachausgabe bestimmbar 
ist . 

Diese Aufgabe wird gemaft den Merkmalen der unabhangigen 
Patentanspriiche gelost. 
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Im Rahmen der Erfindung wird ein Verfahren angegeben zur 
Bestimmung spektraler Sprachcharakteristika in einer 
gesprochenen Auiierung. Dazu wird die gesprochenen Auiierung 
digitalisiert und einer Wavelet-Transformation unterzogen. 
5 Anhand unterschiedlicher Transf ormationsstuf en der Wavelet- 
Transformation werden die sprecherspezif ischen 
Charakteristika ermittelt. 

Dabei ist es insbesondere ein Vorteil, dali bei der Wavelet- 
10 Transformation mittels eines Hochpalif liters und eines 
Tiefpafif ilters die Auiierung aufgeteilt wird und 
unterschiedliche Hochpalianteile bzw. Tief palianteile 
verschiedener Transf ormationsstuf en sprecherspezif ische 
Charakteristika enthalten. 

15 

Die einzelnen Hochpalianteile bzw. Tiefpalianteile 
verschiedener Transf ormationsstuf en stehen fur vorgegebene 
sprecherspezif ische Charakteristika, wobei sowohl 
Hochpalianteil als auch Tiefpalianteil einer jeweiligen 

20 Transformationsstufe, also das jeweilige Charakteristikum, 

getrennt von anderen Charakteristika modifiziert werden kann. 
Setzt man bei der inversen Wavelet-Transformation aus den 
jeweiligen Hochpaii- und TiefpaJianteilen der einzelnen 
Transformationsstuf en wieder das ursprungliche Signal 

25 zusammen, so ist gewahrleistet , daft genau das gewtinschte 

Charakteristikum verandert worden ist. Es ist somit moglich 
bestimmte vorgegebene Eigenarten der Auiierung zu verandern, 
ohne daii dadurch der Rest der Auiierung beeinflulit wird. 

30 Eine Ausgestaltung besteht darin, dafi vor der Wavelet- 
Transformation die Auiierung gefenstert, also eine vorgegebene 
Menge von Abtastwerten ausgeschnitten, und in den 
Frequenzbereich transf ormiert wird. Hierzu wird insbesondere 
eine Fast-Fourier-Transformation (FFT) angewandt. 

35 

Eine weitere Ausgestaltung besteht darin, dali ein 
Hochpalianteil einer Transformationsstufe in einen Realteil 
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und einen Imaginarteil aufgeteilt wird. Der Hochpaiianteil der 
Wavelet-Transformation entspricht dem Dif f erenzsignal 
zwischen dem aktuellen Tiefpafianteil und dem Tiefpafianteil 
der vorhergehenden Transf ormationsstuf e . 

5 

Insbesondere besteht eine Weiterbildung darin, die Zahl der 
durchzufiihrenden Transf ormationsstuf en der Wavelet- 
Transformation dadurch zu bestimmen, dali in der letzten 
Transformationsstuf e, die aus hintereinandergeschalteten 
10 Tiefpassen besteht, ein Gleichanteil der Aufierung enthalten 
ist. Dann ist das Signal als Ganzes darstellbar durch seine 
Wavelet-Koef f izienten. Dies entspricht der vollstandigen 
Transformation der Information des Signalausschnitts in den 
Wavelet-Raum. 

15 

Wird insbesondere nur der jeweilige Tiefpalianteil weiter 
transformiert (mittels eines Hochpali- und- eines 
Tiefpalif ilters) , so verbleibt als Hochpaiianteil einer 
Transformationsstuf e das Dif f erenzsignal, wie oben erlautert. 
20 Kumuliert man Dif f erenzsignale (Hochpafianteile) liber die 
Transformationsstuf en, erhalt man in der letzten 
Transformationsstuf e als kumulierten Hochpaiianteil die 
Information der- gesprochenen AuJierung ohne Gleichanteil. 

25 Im Rahmen einer zusatzlichen Weiterbildung sind die 

sprecherspezif ischen Charakteristika identif izierbar als: 

a) Grundf requenz : 

Die Schwingung des Hochpalianteils der ersten oder der 
30 zweiten Transf ormationsstuf e der Wavelet- 

Transformation laflt die Grundf requenz der Aufierung 
erkennen. Die Grundf requenz zeigt an, ob der Sprecher 
ein Mann oder einen Frau ist. 



b) Form der spektralen Hullkurve: 

Die spektrale Hullkurve enthalt Information uber eine 
Transf erf unktion des Vokaltrakts bei der Artikulation . 
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In einem stimmhaften Bereich wird die spektrale 
Hullkurve von den Formanten dominiert. Der 
HochpafJanteil einer hoheren Transf ormationsstuf e der 
Wavelet-Transformation enthalt diese spektrale 
5 Hullkurve. 

c) Spectral Tilt (Rauchigkeit ) : 

Die Rauchigkeit in einer Stimme wird als negative 
Steigung im Verlauf des vorletzten Tiefpalianteils 
10 sichtbar. 

Die sprecherspezif ischen Charakteristika a) bis c) sind bei 
der Sprachsynthese von grofler Bedeutung. Wie eingangs 
erwahnt, bedient man sich bei der konkatenativen 

15 Sprachsynthese grofier Mengen realgesprochener Aulierungen, aus 
denen Beispiellaute ausgeschnitten und spater zu einem neuen 
Wort zusammengesetzt werden ( synthetisierte Sprache) . Dabei 
sind Diskontinuitaten zwischen zusammengesetzten Lauten von 
Nachteil, da diese vom menschlichen Ohr als unnatiirlich 

20 wahrgenommen werden. Urn den Diskontinuitaten entgegenzuwirken 
ist es von Vorteil, direkt die perzeptiv relevanten GroJien zu 
erfassen und ggf . zu vergleiche und/oder einander anzupassen. 

Dies kann geschehen durch direkte Manipulation, indem ein 
25 Sprachlaut in mindestens einer seiner sprecherspezif ischen 
Charakteristika angepalit wird, so dali er in dem akustischen 
Kontext der konkatenativ verkniipften Laute nicht als storend 
wahrgenommen wird. Auch ist es mbglich, die Auswahl eines 
passenden Lautes daran auszurichten, daft sprecherspezif ische 
30 Charakteristika von zu verkntipf enden Lauten moglichst gut 

zueinander passen, z.B. dali den Lauten gleiche oder ahnliche 
Rauchigkeit zu eigen ist. 

Ein Vorteil der Erfindung besteht darin, dali die spektrale 
35 Hullkurve den Artikulationstrakt des Sprechers widerspiegelt 
und nicht, wie z.B. ein Polstellenmodell, auf Formanten 
gestiitzt ist. Weiterhin gehen bei der Wavelet-Transformation 
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als nichtparametrischer Darstellung keine Daten verloren, die 
AuBerung kann stets vollstandig rekonstruiert werden. Die aus 
den einzelnen Transf ormationsstuf en der Wavelet- 
Transformation hervorgehenden Daten sind linear voneinander 
5 unabhangig, konnen somit getrennt voneinander beeinfluBt und 
spater wieder zu der beeinf luJiten AuBerung - verlustlos - 
zusammengeset zt werden . 

10 Weiterhin wird eine Anordnung zur Bestimmung spektraler 

Sprachcharakteristika angegeben, die eine Prozessoreinheit 
aufweist, die derart eingerichtet ist, daB eine AuBerung 
digitalisierbar ist. Daraufhin wird die AuBerung einer 
Wavelet-Transformation unterzogen und anhand 

15 unterschiedlicher Transf ormationsstuf en werden 
sprecherspezif ische Charakteristika ermittelt. 

Diese Anordnung ist insbesondere geeignet zur Durchfiihrung 
des erf indungsgemaBen Verfahrens oder einer seiner vorstehend 
20 erlauterten Weiterbildungen . 

Weiterbildungen der Erfindung ergeben sich auch aus den 
abhangigen Anspruchen. 

25 Ausfuhrungsbeispiele der Erfindung werden nachfolgend anhand 
der Zeichnung dargestellt und erlautert. 

Es zeigen 

30 Fig.l eine Wavelet-Funktion; 

Fig. 2 eine Wavelet-Funktion, unterteilt nach Realteil und 
Imaginarteil ; 

35 Fig. 3 eine kaskadierte Filterstruktur , die die 

Transf ormationsschritte der Wavelet-Transformation 
darstellt; 
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Fig. 4 Tiefpafianteile und Hochpafianteile unterschiedlicher 
Trans f ormationsstuf en; 

5 Fig. 5 Schritte der konkatenativen Sprachsynthese . 

Fig.l zeigt eine Wavelet-Funktion, die bestimmt ist durch 

,2 



*« - c - 1 - (1) 



20 



25 



30 



• e 2 Va/ (1) , 



wobei 

f die Frequenz, 
a eine Standardabweichung und 
15 c eine vorgegebene Normierungskonstante 

bezeichnen. 

Insbesondere ist die Standardabweichung a bestimmt durch die 
vorgebbare Stelle des Seitenbandminimums 101 in Fig.l. 



Fig. 2 zeigt eine Wavelet-Funktion mit einem Realteil gemaft 
Gleichung (1) und einer Hilbert-Transf ormierten H des 
Realteils als Imaginarteil . Die komplexe Wavelet-Funktion 
ergibt sich somit zu 

T(f) = V (f) + D • H{ V (f)} (2). 

Die Konstante c aus Gleichung (1) wird verwendet, um die 
komplexe Wavelet-Funktion zu normieren: 

00 

jT(f) • T(f) df = 1 (3), 

-00 



wobei ¥ die konjugiert komplexe Wavelet-Funktion bezeichnet. 
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Fig. 3 zeigt die kaskadierte Anwendung der Wavelet- 
Transformation. Ein Signal 301 wird sowohl durch einen 
Hochpaii HP1 302 als auch durch einen Tiefpali TP1 305 
5 gefiltert. Dabei findet insbesondere ein Subsampling statt, 
d.h. die Anzahl der abzuspeichernden Werte wird pro Filter 
reduziert. Eine inverse Wavelet-Transformation gewahrleistet, 
dafi aus dem Tiefpafianteil TP1 305 und dem Hochpaiianteil HP1 
304 wieder das ursprungliche Signal 301 rekonstruierbar ist. 

10 

Im Hochpafl HP1 302 wird getrennt nach Realteil Rel 303 und 
Imaginarteil Iml 304 gefiltert. 

Das Signal 310 nach dem TiefpaiJf ilter TP1 305 wird erneut 
15 sowohl durch einen HochpaJi HP2 306 als auch durch einen 

TiefpafJ TP2 309 gefiltert. Der HochpaJJ HP2 306 umfaBt wieder 
einen Realteil Re2 307 und einen Imaginarteil Im2 308. Das 
Signal nach der zweiten Transf ormationsstuf e 311 wird wieder 
gefiltert, usf. 

20 

Geht man von einem ( FFT-transf ormierten) Kurzzeitspektrum mit 
256 Werten aus, so werden acht Transf ormationsschritte 
durchgefiihrt (Subsamplingrate : 1/2), bis das Signal aus dem 
letzten TiefpaiJf ilter TP8 dem Gleichanteil entspricht. 

25 

In Fig. 4 sind verschiedene Transf ormationsstuf en der Wavelet- 
Transformation, unterteilt nach Tief paftanteilen (Figuren 4A, 
4C und 4E) und Hochpaftanteilen (Figuren 4B, 4D und 4F) 
dargestellt . 

30 

Aus dem Hochpaiianteil gemafi Fig.4B ist die Grundf requenz der 
gesprochenen AufJerung ersichtlich. Neben den Schwankungen in 
der Amplitude ist deutlich eine uberwiegende Periodizitat im 
wavelet-gef ilterten Spektrum zu erkennen, die Grundf requenz 
35 des Sprechers. Anhand der Grundf requenz ist es moglich, 
vorgegebene AuJierungen bei der Sprachsynthese einander 
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anzupassen oder passende AuJJerungen aus einer Datenbank mit 
vorgegebene Auflerungen zu bestimmen. 

Im Tiefpaftanteil von Fig.4C sind als ausgepragte Minima und 
5 Maxima die Formanten des Sprachsignalausschnitts (die Lange 
des Sprachsignalausschnitts entspricht in etwa der doppelten 
Grundf requenz) dargestellt. Die Formanten reprasentieren 
Resonanzf requenzen im Vokaltrakt des Sprechers. Die deutliche 
Darstellbarkeit der Formanten ermoglicht eine Anpassung 
10 und/oder Auswahl passender Lautbausteine bei der 
konkatenativen Sprachsynthese . 

Im Tief pafianteil der vorletzten Transf ormationsstuf e (bei 256 
Frequenzwerten im Originalsignal : TP7), kann die Rauchigkeit 
15 einer Stimme ermittelt werden. Der Abstieg des Kurvenverlauf s 
zwischen Maximum Mx und Minimum Mi kennzeichnet den Grad der 
Rauchigkeit . 

Die erwahnten drei sprecherspezif ischen Charakteristika sind 
20 somit identif iziert und konnen fur die Sprachsynthese gezielt 
beeinflufit werden. Dabei ist es insbesondere von Bedeutung, 
daiJ bei der inversen Wavelet-Transformation die Manipulation 
eines einzelnen sprecherspezif ischen Charakteristikums nur 
dieses beeinfluJit, die anderen perziptiv relevanten Groflen 
25 bleiben unberuhrt. Somit kann die Grundf requenz gezielt 

verstellt werden, ohne daft dadurch die Rauchigkeit der Stimme 
beeinflufit wird. 

Eine andere Einsatzmoglichkeit besteht in der Auswahl eines 
30 geeigneten Lautabschnitts zur konkatenativen Verkniipfung mit 
einem anderen Lautabschnitt, wobei beide Lautabschnitte 
ursprunglich von verschiedenen Sprechern in unterschiedlichen 
Kontexten aufgenommen wurden. Mit Ermittlung spektraler 
Sprachcharakteristika kann ein geeigneter zu verkntipf ender 
35 Lautabschnitt gefunden werden, da mit den Charakteristika 
Kriterien bekannt sind, die einen Vergleich von 
Lautabschnitten untereinander und somit eine Auswahl des 
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passenden Lautabschnitts automatisch nach bestimmten Vorgaben 
ermoglichen. 

Fig. 5 zeigt Schritte einer konkatenativen Sprachsynthese . 
5 Eine Datenbank wird mit einer vorgegebenen Menge 

natiirlichgesprochener Sprache verschiedener* Sprecher 
erstellt, wobei Lautabschnitte in der natiirlichgesprochenen 
Sprache ident if iziert und abgespeicherrt werden. Es ergeben 
sich zahlreiche Reprasentanten fiir die verschiedenen 

10 Lautabschnitte einer Sprache/ auf die die Datenbank zugreifen 
kann. Die Lautabschnitte sind insbesondere Phoneme einer 
Sprache oder eine Aneinanderreihung solcher Phoneme. Je 
kleiner der Lautabschnitt , desto groBer sind die 
Moglichkeiten bei der Zusammenset zung neuer Worter. So umfaPjt 

15 die deutsche Sprache eine vorgegebene Menge von ca . AO 

Phonemen, die zur Synthese nahezu aller Worter der Sprache 
ausreichen. Dabei sind unterschiedliche akustische Kontexte 
zu berticksichtigen, je nachdem, in welchem Wort das jeweiiige 
Phonem auftritt. Nun ist es wichtig, die einzelnen Phoneme in 

20 den akustischen Kontext derart einzubetten, daft 

Diskontinuitaten, die vom menschlichen Gehdr als unnaturlich 
und "synthetisch" empfunden werden, vermieden werden. Wie 
erwahnt stammen die Lautabschnitte von unterschiedlichen 
Sprechern und weisen somit verschiedene sprecherspezif ische 

25 Charakter istika auf. Urn eine moglichst natiirlich wirkende 
Aufierung zu synthetisieren, ist es wichtig, die 
Diskontinuitaten zu minimieren. Dies kann erfolgen durch 
Anpassung der identif izierbaren und modif izierbaren 
sprecherspezif ischen Charakterist ika oder durch Auswahl 

30 passender Lautabschnitte aus der Datenbank, wobei ebenfalls 
die sprecherspezif ischen Charakteristika bei der Auswahl ein 
entscheidendes Hi If smittel darstellen . 

In Fig. 5 sind beispielhaft zwei Laute A 507 und B 508 
35 dargestellt, die jeweils einzelne Lautabschnitte 505 bzw. 506 
aufweisen. Die Laute A 507 und B 508 stammen jeweils aus 
einer gesprochenen Aufterung, wobei der Laut A 507 deutlich 
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vom Laut B 508 verschieden ist. Eine Trennlinie 509 zeigt an, 
wo der Laut A 507 mit dem Laut B 508 verkniipft werden soli. 
Im vorliegenden Fall sollen die ersten drei Lautabschnitte 
des Lautes A 507 mit den letzten drei Lautabschnitten des 
5 Lautes B 508 konkatenativ verkniipft werden. 

Es wird entlang der Trennlinie 509 ein zeitliches Dehnen oder 
Stauchen (vergleiche Pfeil 503) der auf einanderf olgenden 
Lautabschnitte durchgef iihrt , urn den diskontinuierlichen 
10 Eindruck am Obergang 509 zu vermindern. 

Eine Variante besteht in einem abrupten Obergang der entlang 
der Trennlinie 509 geteilten Laute. Dabei kommt es jedoch zu 
den erwahnten Diskontinuitaten, die das menschliche Gehor als 

15 storend wahrnimmt. Fugt man hingegen einen Laut C zusammen, 
dafl die Lautabschnitte innerhalb eines Ubergangsbereichs 501 
oder 502 beriicksichtigt werden, wobei ein spektrales 
Abstandsmaii zwischen zwei einander zuordenbaren 
Lautabschnitten in dem jeweiligen Ubergangsbereich 501 oder 

20 502 angepafit wird (allmahlicher Obergang zwischen den 
Lautabschnitten) . Als das Abstandsmaii herangezogen wird 
insbesondere im Wavelet-Raum der euklidische Abstand zwischen 
den in diesem Bereich relevanten Koef f izienten. 

25 
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Pa tent anspriiche 

1. Verfahren zur Bestimmung spektraler Sprachcharakteristika 
in einer gesprochenen Aufierung, 

5 a) bei dem die AufJerung digitalisiert wird, 

b) bei dem die digitalisierte Aufterung einer Wavelet- 
Transformation unterzogen wird, 

c) bei dem anhand unterschiedlicher Transf ormationsstuf en 
der Wavelet-Transformation die sprecherspezif ischen 

10 Charakteristika bestimmt werden. 

2. Verfahren nach Anspruch 1/ 

bei dem vor der Wavelet-Transformation eine gefensterte 
Transformation der digitalisierten Aufterung in einen 
15 Frequenzbereich durchgef tihrt wird. 

3. Verfahren nach Anspruch 2, 

bei dem die Transformation in den Frequenzbereich mittels 
Fast-Fourier-Transformation durchgefuhrt wird. 

20 

4. Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem in jeder Stufe der Wavelet-Transformation ein 
Tiefpaflanteil und ein Hochpaiianteil eines zu 

transf ormierenden Signals ermittelt werden. 

25 

5. Verfahren nach einem der vorhergehenden Anspriiche, 

bei dem ein Hochpalianteil nach einem Realteil und einem 
Imaginarteil unterteilt wird. 

30 6. Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem die Wavelet-Transformation mehrere 
Transformationsstuf en umfalit, wobei die letzte 
Transf ormationsstuf e einen Gleichanteil der Aufierung in 
einer der Anzahl Transf ormationsstuf en entsprechenden 

35 wiederholten Tiefpaiif ilterung liefert. 
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7. Verfahren nach einem der vorhergehenden Anspriiche, 

bei dem die sprecherspezif ischen Charakteristika bestimmt 
sind durch: 

a) eine Grundf requenz der gesprochenen Aufierung; 
5 b) spektrale Hullkurve; 

c) einer Rauchigkeit der gesprochenen Aufierung. 

8. Verwendung des Verfahrens nach einem der Ansprtiche 1 bis 
7 zur Sprachsynthese, 

10 wobei einzelne sprecherspezif ische Charakteristika im 

Hinblick auf eine natiirlich klingende Aneinanderreihung 
von Sprachlauten angepafit werden. 

9. Verwendung des Verfahrens nach einem der Ansprtiche 1 bis 
15 7 zur Sprachsynthese, 

wobei aus einer vorgegebenen Datenmenge diejenigen 
Sprachlaute anhand einzelner spektraler 
Sprachcharakteristika ausgewahlt werden, die eine 
natiirlich klingende Aneinanderreihung von Sprachlauten 
20 gewahrleisten . 

10 . ' Anordnung zur Bestimmung spektraler Sprachcharakteristika 

in einer gesprochenen Aufierung 
25 mit einer Prozessoreinheit , die derart eingerichtet ist, 

daii folgende Schritte durchfiihrbar sind: 

a) die Aufierung wird digitalisiert ; 

b) die digitalisierte Aufierung wird einer Wavelet- 
Transformation unterzogen; 

30 c) anhand unterschiedlicher Transformationsstuf en der 

Wavelet-Transformation werden die sprecherspezif ischen 
Charakteristika bestimmt. 
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Das Dokument D1= US-A-5528725 (=nachster Stand der Technik) offenbart ein 
Verfahren zur Bestimmung spektraler Sprachcharakteristika, bei dem eine 
digitalisierte AuBerung einer Wavelet-Transformation unterzogen wird; das 
Verfahren wird zur automatischen Spracherkennung verwendet. 
Der Erfinder erkennt die technische Aufgabe, daB das in D1 offenbarte Verfahren 
spektrale Sprachcharakteristika nicht in der Weise bestimmt, urn mit dessen Hilfe 
eine naturlich wirkende synthetische Sprachausgabe zu ermoglichen. Zur Losung 
der technischen Aufgabe schlagt deshalb der Erfinder vor, sprecherspezifische 
Charakteristika in den unterschiedlichen Transformationsstufen der Wavelet- 
Transformation zu bestimmen. 

Der Gegenstand des Anspruchs ist neu. Daruber hinaus gibt es im Stand der 
Technik keinen Hinweis, der den Fachmann zum Gegenstand des Anspruchs 1 
fuhren wiirde, sodaB der Anspruch nicht naheliegend ist und folglich einen 
erfinderischen Schritt beinhaltet. 

2. Der Anspruch 10 beansprucht eine Anordnung zur Bestimmung spektraler 
Sprachcharakteristika in einer gesprochenen AuBerung. Da der 
Vorrichtungsanspruch 10 dem Verfahrensanspruch 1 entspricht, ist Anspruch 10 
ebenfalls neu und erfinderisch. 
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Beschreibung 



Verfahren und Anordnung zur Bestimmung spektraler 
Sprachcharak teri s t ika in einer gesprochenen AuBerung 



5 

Die Erfindung betrifft ein Verfahren und eine Anordnung zur 
Bestimmung spektraler Sprachcharakteristika in einer 
gesprochenen AuBerung, 

10 Bei einer konkatenativen Sprachsynthese werden einzelne Laute 
aus Sprachdatenbanken zusammengesetzt . Urn dabei einen fur das 
menschliche Ohr natiirlich klingenden Sprachverlauf zu 
erhalten, sind Diskontinuitaten an den Punkten, wo die Laute 
zusammengesetzt werden (Konkatenationspunkte) zu vermeiden. 

15 Die Laute sind dabei insbesondere Phoneme einer Sprache. oder 
eine Zusammensetzung mehrerer Phoneme. 

Eine Wavelet-Transformation ist aus [1] bekannt. Bei der 
Wavelet-Transformation ist durch ein Wavelet-Filter 

2 0 gewahrleistet, daft jeweils ein HochpaBanteil und ein 

TiefpaBanteil einer nachf olgenden Transf ormationsstuf e ein 
Signal einer aktuellen Transf ormationsstuf e vollstandig 
wiederherstellen, Dabei erfolgt von einer 
Transformationsstuf e zur nachsten eine Reduktion der 

25 Auflosung des HochpaBanteils bzw. Tiefpafianteils (engl, 
Fachbegriff: "Subsampling") . Insbesondere ist durch das 
Subsampling die Anzahl der Transf ormationsstuf en endlich. 

US-A-5528725 offenbart ein Verfahren zur Spracherkennung 
30 mittels Wavelet-Transf ormationen. 

EP-A-0519802 offenbart ein Verfahren zur Sprachsynthese, das 
sprecherspezif ische Charakteristika im Hinblick auf eine 
natiirlich klingende Aneinanderreihung von Sprachlauten 
35 anpasst. 
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Die Aufgabe der Erfindung besteht darin, ein Verfahren und 
eine Anordnung zur Bestimitiung spektraler 

Sprachcharakteristika anzugeben, mit deren Hilfe insbesondere 
eine naturlich wirkende synthetische Sprachausgabe bestimmbar 
5 ist. - 



Diese Aufgabe wird gemafi den Merkmalen der unabhangigen 
Patentanspriiche gelost . 
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M1TTE1LUNG UBER DIE UBERMITTLUNG DES 
INTFRNATIONAI FN RFnHFRPHFNIRFRlPHTQ 

ODER DER ERKLARUNG 
tj (Regel 44.1 PCT) 


Aisendedatum 
- -frag/Monat/Jahr) 12/10/1999 


Aktenzeichen des Anmelders Oder Anwalts 

98P1695P 


WEITERES VORGEHEN siehe Punkte 1 und 4 unten 


Internationales Aktenzeichen 

PCT/DE 99/01308 


Internationales Anmeldedatum 
(Tag/Monat/Jahr) jq^ / j ggg 


Anmelder 

SIEMENS AKTIENGESELLSCHAFT et al . 



1 . [^] Dem Anmelder wird mitgeteilt, daB der internationaie Recherchenbericht erstellt wurde und ihm hiermit ubermittelt wird. 
Einreichung von Anderungen und einer Erklarung nach Artikel 19: 

Der Anmelder kann auf eigenen Wunsch die Anspruche der internationalen Anmeldung andern (siehe Regel 46): 

Bis wann sind Anderungen einzureichen? 

Die Frist zur Einreichung solcher Anderungen betragt ubiicherweise zwei Monate ab der UbermittJung des 
internationalen Recherchenberichts: weitere Einzelheiten sind den Anmerkungen auf dem Beiblatt zu entnehmen. 

Wo sind Anderungen einzureichen? 

Unmittelbar beim Internationalen Buro der WIPO. 34, CHEMIN des Colombettes, CH-1 21 1 Genf 20. 
Telefaxnr.: (41-22) 740.14.35 



□ 
□ 



N ah ere Hinweise sind den Anmerkungen auf dem Beiblatt zu entnehmen. 

Dem Anmelder wird mitgeteilt. daB kein internationaler Recherchenbericht erstellt wird und daB ihm hiermit die Erklarung nach 
Artikel 17(2)a) ubermittelt wird. 

Hinsichtlich des Widerspruchs gegen die Entrichtung einer zusatzlichen Gebuhr (zusatzficher Gebuhren) nach Regel 40.2 wird 
dem Anmelder mitgeteilt daft 

□ der Widerspruch und die Entscheidung hie ruber zusammen mit seinem Antrag auf Ubermittlung des Wortlauts sowohl des 
Widerspruchs als auch der Entscheidung hieruber an die Bestimmungsamter dem Internationalen Buro ubermittelt worden 
sind. 

□ noch keine Entscheidung uber den Widerspruch vorliegt; der Anmelder wird benachrichtigt, sobald eine Entscheidung 
getroffen wurde. 

Wei teres Vorgehen: Der Anmelder wird auf folgendes autmerksam gemacht 

Kurz nach Ablaut von 18 Monaten seit dem Prioritatsdatum wird die internationaie Anmeldung vom Internationalen Buro veroffentr- 
licht. WJ der Anmelder die Veroffenttichung verhindern Oder auf einen spateren Zeitpunkt verschieben, so muB gemafJ Regel 90 .1 
bzw. 9Cr?3 vor AbschluB der technischen Vorbereitungen fur die internationaie Veroffentlichung eine Erklarung uber die Zurucknah- 
me der internationalen Anmeldung oder des Prioritatsanspruchs beim Internationalen Buro eingehen. 

Innerhaib von 19 Monaten seit dem Prioritatsdatum ist ein Antrag auf internationaie voriaufige Prufung einzureichen, wenn der 
Anmelder den Eintritt in die nationale Phase bis zu 30 Monaten seit dem Prioritatsdatum (in manchen Amtern sogar noch langer) 
verschieben mochte. 

Innerhaib von 20 Monaten seit dem Prioritatsdatum mufi der Anmelder die fur den Eintritt in die nationale Phase vorgeschriebenen 
Handlungen vor alien Bestimmungsamtern vornehmen, die nicht innerhaib von 19 Monaten seit dem Prioritatsdatum in der 
Anmeldung Oder einer nachtraglichen Auswahlerkiarung ausgewahlt wurden oder nicht ausgewahlt werden konnten, da fur sie 
Kapitel II des Vertrages nicht verbindlich ist. 



Name und Postanschrift der Internationalen Recherche nbehdrde 

Europaisches Patentamt, P.B. 5818 Patentlaan 2 
NL-2280 HV Rijswijk 

Tel. (+31-70) 340-2040, Tx. 31 651 epo nl, 
Fax: (+31 -70) 340-301 6 



BevoJlmachtigter Bediensteter 

Ahmed Sol iman 
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Ah^HtKUNGEN ZU FORMBLATT PCT/IS 



Diese Anmerkungen aollen grundlegende Hinweiae zur Einreichung von Anderungen gemaB Artikel 19 geben. Diesen Anmorkungen 
liegen die Erforderrrisse des Vertrags Ober c5© Internationale Zusammenarbeit auf dem Gebiet dee Patentwesens (PCT) t der AusfOhnjngs- 
ordnung und der Verwattungsnchtiinien zu diesem Vertrag zugrunde. Bei Abweichungen zwischen cSesen Anmerkungen und 
obengenannten Texten sind letztere maBgebend. Nahere Einzelheiten sind dem PCT-Leitfaden fur Anmelder, einer Veroffentiichung der 
WIPO, zu entnehmen. 

Die in diesen Anmerkungen verwendeten Bog riff© # ArtikeP, "Roger und "Abachnrtt" beziehen srch jeweiis auf die Bestimmungen des 

PC T- Vert rags, der PCT*Ausruhrungsordnung bzw. der PCT-Verwaftungarichtlinien. | 

HINWEISE ZU ANDERUNGEN GEMASS ARTIKEL 19 

Nach Erhalt des intemationalen Recherchenberiohts hat der Anmolder die MogJtchkert, einrnal die AnsprOohe der international on 
Anmeldung zu andem. Es ist jedoch zu betonen, daB, da aJle Teile der intemationalen Anmeldung (AnsprOche, Beschreibung und 
Zeichnungen) wahrend dee intemationalen voriaufigen PrOfungsverfahrens geandert warden konnen, normaJerweise ketne Notwendigketl 
besteht, Andorungen der Anspruche nach Artikel 1 9 einzureichen, auBer wenn der An me (der z.B. zum Zwecke eines voriaufigen 
Schutzes die Veroffentltchung dieser Anspruche wunscht odec ein anderer Grund fQr eine Anderung der AnsprOche vor ihrer intemationa- 
len veroffentiichung vorliegt. Weiterhin tst zu beachten, daB ein vodaufiger Schutz nur in etnigen Staaten ertialtJich tst 



Wei che Telle der Intemationalen Anmeldung konnen geandert warden? 

Im Rahmen von Artikel 19 konnen nur die Anspruche geandert warden. 

In der intemationalen Phase konnen die AnsprOche auch nach Artikel 34 vor der mit der intemationalen voriaufigen PrOfung be auf - 
tragten Be horde geandert (oder nochmala geandert) werden. Die Beschreibung und die Zeichnungen konnen nur nach Artikel 34 
vor der mit der international en voriaufigen PrOfung beauftragten Behorde geandert werden. 

Beim Eintritt in die nationaie Phase konnen alio Teile der intemationalen Anmeldung nach Artikel 28 Oder geoe be nen falls Artikel 
41 geandert werden. 



Bis wann slnd Andorungen einzureichen? 

Innerhalb von zwei Monaten ab der Ubermrtttung des intemationalen Recherchenberichts oder innorhalb von sechzehn M on at en ab 
dem Prioritatadatum, je nach dem, w el che Frist spater aWauft. Die Andorungen gotten jedoch als reohtzeitig eingereicht, wenn sie 
dem Intemationalen BOro nach Ablauf der maBgebenden Frist, aber noch vor AbschluB der technischen Vorberertungen tor die 
Internationale VerofforrrJichung (Reg el 46.1) zugehen. 



Wo slnd die Andorungen nicht einzureichen? 

Die Anderungen konnen nur beim Intemationalen BOro, nicht aber beim Anmeldeamt oder der Intemationalen Recherchenbehorde 
eingereicht werden (Regel 46 2) 

Falls ein Ant rag auf international voriauftge PrOfung eingereicht wurdeAvird, siehe unten. 

In welcher Form konnen Anderungen erfolgen? 

Eine Anderung kann erfolgen durch Streichung eines oder mehreror ganzer AnsprOche, durch HinzufOgung eines oder mehrerer 
neuer AnsprOche oder durch Anderung des WortJauts eines oder mehrerer AnsprOche in der eingereichten Fassung. 

FOr jedes Anspruchsblatt, das sich aufgrund einer oder mehrerer Anderungen von dem ursprOnglich eingereichten Blatt 
unterscheidet, ist ein Ersatz blatt einzureichen. 

AJle AnsprOche, die auf ernem Ersatzblatt erscheinen, sind mit arabischen Ziffem zu numerieren. Wird ein Anspruch ges trie hen, so 
brauchen, die anderen AnsprOche nicht neu numeriert zu werden. Im Fall einer Neunumerierung sind die AnsprOche fortlaufend zu 
numerieren (VerwaJtungarichtlinien, Abachnrtt 205 b)). 

Die Anderungen slnd In der Sprache abzufassen, In der dlelntematlonale Anmeldung verdffentllcht wird. 



Welche Untertagen slnd den Anderungen beurufQgen? 
Beglenschreiben (Abschnitt 205 b)): 

Die Anderungen sind mit einem Begleitschreiben einzureichen. 

Das Begleitschreiben wird nicht zusammen mit der intemationalen Anmeldung und den geanderten Anspruchen veroffentticht Es 
tst nicht zu verwechseln mit der "Eridarung nach Artikel 1 9(1 )• (siehe unten, "ErkJarung nach Artikel 19(1)*). 

Das Begleitschreiben ist nach Wahl des Anmeiders In englischer oder franzdsischer Sprache abzufassen. Bel engllschspra- 
chlgen Intemationalen Anmeldungen Ist das Begleitschreiben aber ebenfatls In englischer, bei franzdslschsprachlgen Inter- 
natlonalen Anmeldungen In rranzdsischer Sprache abzufassen. 
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lm Begleitachreiben sind die Unterschiede zwischen den AnsprOchen in der eingereichten Fasaung und den geanderten AnaprOchen 
anzugeben. So rst insbesondere zu jedem Anspruch in der intemationalen Anmetdung anzugeben (gfeichlautende Angaben zu 
verachiedenen AnsprOchen konnen zusammengefaftt word en), ob 

i) der Anspruch unrverdndert rst; 

ii) der Anspruch gestrichen worden tat; 

iii) der Anspruch neu ist; 

rv) der Anspruch einen oder mehrere AnsprOche in der eingereichten Fasaung ersetzt; 

v) der Anspruch auf die Teilung einoa Anspruch a in der eingereichten Fasaung zurOokzufOhren iat. 



Im folgenden sind Belsptefte angegeben, wie Anderungen fm BegleftsshreJben zu ertautern afnd: 

1. fWenn ansteOe von uraprOnglich 48 AnsprOchen nach der An de rung einiger AnsprOche 51 AnsprOche existieren): 

"Die AnsprOche 1 bia 29, 31 , 32, 34, 35, 37 bis 48 werden durch geanderte Anapruche gleicher Numerterung ersetzt; AnsprOche 
30, 33 und 36 unverandert; neue Anapruche 49 bia 51 hinzugefOgt." 

2. [Wenn anstelie von ursprOngKch 1 5 Anapruchen nach der Anderung alter Anapruche 1 1 Anapruche existieren]: 
"Geanderte AnsprOche 1 bta 11 treten an die Stefle der Anapruche 1 bia 1 5." 

3. [Wenn uraprOnglich 1 4 AnsprOche exiatierten und die Anderungen darin bestehen, daft etnige AnsprOche gestrichen warden und 
neue AnaprOche hinzugefOgt werdenj: 

AnsprOche 1 bis 6 und 1 4 unverAndert; AnaprOche 7 bis 13 gestrichen; neue AnsprOche 15, 16 und 1 7 hinzugefOgt/Oder* An- 
aprOche 7 bis 13 gestrichen; neue AnsprOche 1 5, 16 und 1 7 hinzugefOgt; aJle Obrigen AnsprOche unver&ndert.* 

4. [Wenn verachiedene Art en von Anderungen durchgefOhrt werdenj: 

•AnaprOche 1 -10 unverandert; AnsprOche 1 1 bis 13, 18 und 19 gestrichen; AnsprOche 14, 15 und 16 durch geanderten An- 
apruch 1 4 ersetzt; Anspruch 1 7 in geanderte AnsprOche 15,16 und 1 7 untertetlt; neue AnaprOche 20 und 21 hinzugefOgt.* 



"Ertdirung nach Artikel 19(1)" (Reg el 46.4) 

Den Anderungen kann eine ErWArung beigefOgt werden, mrt der die Anderungen ertautert und ihre Auswirkungen auf die 
Beachreibung und die Zeiehnungen dargelegt warden (die nicht nach ArtikeJ 1 9 (1 ) geandert warden kdnnen). 

Die Erkiarung wird zuaammen mrt der intemationalen Anmetdung und den geanderten AnsprOchen verofferrtticht. 
Sle Ist In der Sprache abzufassen, In der die intemationalen Anmetdung verdffefrtllcht wlrd. 

Ste muG kurz geharten sein und darf , wenn in engltsoher Sprache abgefaftt oder ins Englische Obersetzt, nicht mehr sis 500 
Worter umf aaaen 

Die Erkiarung iat nicht zu verwechaeln mrt dam Begiertschreiben, das auf die Unterschiede zwischen den AnsprOchen in der 
eingereichten Fasaung und den geanderten AnsprOchen hinweist, und ersetzt letzteres nicht. Sie ist auf einem gesonderten Blatt 
einzureichen und in der Uberschrift aJs aolche zu kennzeichnen, vorzugaweiae mit den Worten "ErWarung nach Artikel 19 (1)'. 

Die Erkl&rung dart keine herabeetzenden AuBerungen Ober den intemationalen Recherchenbericht oder die Bedeutung von in dem 
Bericht angefOhrten Veroffentlichungen enthatten. Sie darf auf im intemationalen Recherchenbericht angefOhrte VerOffentlichun- 
gen, de aich auf einen bestimmten Anspruch beziehen, nur im Zus am man hang mit einer Anderung dieses Ansprucha Bezug 
n ah man. 



Auswirkungen eines beratts gesteltten Antrags auf fnternatlonalevoriauftge PrOfung 

Ist zum Zeitpunkt der Einreichung von Anderungen nach Artikel 19 beretts ein Antrag auf intern at ionaJe vorlaufige PrOfung 
gestellt worden, so aollte der Anmefder in aeinem Interease gleichzeitig mit der Einreichung der Anderungen bairn Intern at ion alen 
Bflro auch eine Kopie der Anderungen bei der mit der intemationalen voriaufigen PrOfung beauftragen Be horde einreichen (stehe 
Regel 62.2 a), erster Satz). 



Auswirkungen von Anderungen hlnslchtlich der Obersetzung derintematlonalen Anmeldung belm Elntrltt In die 
netlonale Phase 

Der Anmelder wird darauf hingewiesen, daB bei Eintritt in de nationale Phase mdglicherweiae anstatt oder zuaatzlich zu der Ober- 
setzung der AnsprOche in der eingereichten Fasaung eine Obersetzung der nach Artikel 19 geanderten AnaprOche an die 
bestimmten/aiisgewahtten Amter zu Obermitteln ist. 

Nahere Einzelheiten Ober die Erfordemisse jedes bestimmten/ausgewahrten Amis sind Band II des PCT-Leitfadens fur Anmelder 
zu entnehmen. 
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METHOD AND ARRANGEMENT FOR DETERMINING SPECTRAL 
SPEECH CHARACTERISTICS IN A SPOKEN EXPRESSION 

The invention is directed to a method and to an arrangement for 
determining spectral speech characteristics in a spoken expression. 

In a concatenative speech synthesis, individual sounds are combined from 
speech data banks. In order to thereby obtain a speech curve that sounds natural to the 
human ear, discontinuities must be avoided at the points were the sounds are 
combined (concatenation points). In particular, the sounds are thereby phonemes of a 
language or a combination of a plurality of phonemes. 

[1] discloses a wavelet transformation. In wavelet transformation, a 
wavelet filter assures that a respective high-pass part and low-pass part of a following 
transformation stage completely restore a signal of a current transformation stage. A 
reduction of the resolution of the high-pass part or, respectively, low-pass part thereby 
ensues from one transformation stage to the next (English art term: "sub-sampling"). 
In particular, the plurality of transformation stages is finite due to the sub-sampling. 

The object of the invention is comprised in specifying a method and an 
arrangement for determining spectral speech characteristics with whose assistance, in 
particular, a speech output that sounds natural can be determined. 



expression is recited in the scope of the invention. To that end, the spoken expression 
is digitalized and subjected to a wavelet transformation. The speaker- specific 
characteristics are determined on the basis of different transformation stages of the 
wavelet transformation. 



This object is achieved according to the features of the independent 



claims. 



A method for determining spectral speech characteristics in a spoken 
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Beschreibung 

Verfahren und Anordnung zur Bestimmung spektraler 
Sprachcharakteristika in einer gesprochenen Aufierung 

Die Erfindung betrifft ein Verfahren und eine Anordnung zur 
Bestimmung spektraler Sprachcharakteristika in einer 
gesprochenen Aufierung. 

Bei einer konkatenativen Sprachsynthese werden einzelne Laute 
aus Sprachdatenbanken zusammengesetzt . Um dabei einen fur das 
menschliche Ohr natiirlich klingenden Sprachverlauf zu 
erhalten, sind Diskontinuitaten an den Punkten, wo die Laute 
zusammengesetzt werden (Konkatenationspunkte) zu vermeiden. 
Die Laute sind dabei insbesondere Phoneme einer Sprache oder 
eine Zusammensetzung mehrerer Phoneme. 

Eine Wavelet-Transformation ist aus [1] bekannt. Bei der 
Wavelet-Transformation ist durch ein Wavelet-Filter 
gewahrleistet, dafl jeweils ein Hochpafianteil und ein 
Tiefpafianteil einer nachf olgenden Transf ormationsstuf e ein 
Signal einer aktuellen Transf ormationsstuf e vollstandig 
wiederherstellen. Dabei erfolgt von einer 
Transformationsstuf e zur nachsten eine Reduktion der 
Auflosung des Hochpafianteils bzw. Tiefpafianteils (engl. 
Fachbegriff: "Subsampling"). Insbesondere ist durch das 
Subsampling die Anzahl der Transf ormationsstuf en endlich. 

Die Aufgabe der Erfindung besteht darin, ein Verfahren und 
eine Anordnung zur Bestimmung spektraler 

Sprachcharakteristika anzugeben, mit deren Hilfe insbesondere 
eine natiirlich wirkende synthetische Sprachausgabe bestimmbar 
ist . 



Diese Aufgabe wird gemafi den Merkmalen der unabhangigen 
Patentanspruche gelost. 
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Im Rahmen der Erfindung wird ein Verfahren angegeben zur 
Bestimmung spektraler Sprachcharakteristika in einer 
gesprochenen Aufierung. Dazu wird die gesprochenen Aufierung 
digitalisiert und einer Wavelet-Transformation unterzogen. 
5 Anhand unterschiedlicher Transf ormationsstuf en der Wavelet- 
Transformation werden die sprecherspezif ischen 
Charakteristika ermittelt . 

Dabei ist es insbesondere ein Vorteil, dafi bei der Wavelet- 
10 Transformation mittels eines Hochpafif ilters und eines 
Tiefpafif ilters die Aufierung aufgeteilt wird und 
unterschiedliche Hochpafianteile bzw. Tiefpafianteile 
verschiedener Transf ormationsstuf en sprecherspezif ische 
Charakteristika enthalten. 

15 

Die einzelnen Hochpafianteile bzw. Tiefpafianteile 
verschiedener Transf ormationsstuf en stehen fur vorgegebene 
sprecherspezif ische Charakteristika, wobei sowohl 
Hochpafianteil als auch Tiefpafianteil einer jeweiligen 

20 Transf ormationsstuf e, also das jeweilige Charakteristikum, 

getrennt von anderen Charakteristika modifiziert werden kann. 
Setzt man bei der inversen Wavelet-Transformation aus den 
jeweiligen Hochpafi- und Tiefpafianteilen der einzelnen 
Transf ormationsstuf en wieder das ursprungliche Signal 

25 zusammen, so ist gewahf leistet , dafi genau das gewiinschte 

Charakteristikum verandert worden ist. Es ist somit moglich 
bestimmte vorgegebene Eigenarten der Aufierung zu verandern, 
ohne dafi dadurch der Rest der Aufierung beeinflufit wird. 

30 Eine Ausgestaltung besteht darin, dafi vor der Wavelet- 
Transformation die Aufierung gefenstert, also eine vorgegebene 
Menge von Abtastwerten ausgeschnitten, und in den 
Frequenzbereich transf ormiert wird. Hierzu wird insbesondere 
eine Fast-Fourier-Transformation (FFT) angewandt . 

35 

Eine weitere Ausgestaltung besteht darin, dafi ein 
Hochpafianteil einer Transf ormationsstuf e in einen Realteil 
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und einen Imaginarteil aufgeteilt wircL Der Hochpafianteil der 
Wavelet-Transformation entspricht dem Dif f erenzsignal 
zwischen dem aktuellen Tiefpafianteil und dem Tief pafianteil 
der vorhergehenden Transf ormationsstuf e . 

Insbesondere besteht eine Weiterbildung darin, die Zahl der 
durchzufuhrenden Transf ormationsstuf en der Wavelet- 
Transformation dadurch zu bestimmen, dafi in der letzten 
Transformationsstuf e, die aus hintereinandergeschalteten 
Tiefpassen besteht, ein Gleichanteil der Aufierung enthalten 
ist. Dann ist das Signal als Ganzes darstellbar durch seine 
Wavelet-Koef f izienten. Dies entspricht der vollstandigen 
Transformation der Information des Signalausschnitts in den 
Wavelet-Raum. 

Wird insbesondere nur der jeweilige Tiefpafianteil weiter 
transformiert (mittels eines Hochpafi- und eines 
Tiefpafif ilters) , so verbleibt als Hochpafianteil einer 
Transformationsstuf e das Dif f erenzsignal , wie oben erlautert. 
Kumuliert man Dif f erenzsignale (Hochpafianteile) liber die 
Transformationsstuf en, erhalt man in der letzten 
Transformationsstuf e als kumulierten Hochpafianteil die 
Information der gesprochenen Aufierung ohne Gleichanteil.. 

Im Rahmen einer zusatzlichen Weiterbildung sind die 
sprecherspezif ischen Charakteristika identif izierbar als: 

a) Grundf requenz : 

Die Schwingung des Hochpaflanteils der ersten oder der 
zweiten Transf ormationsstuf e der Wavelet- 
Transformation lalit die Grundf requenz der Aufierung 
erkennen. Die Grundf requenz zeigt an, ob der Sprecher 
ein Mann oder einen Frau ist. 



b) 



Form der spektralen Hiillkurve: 

Die spektrale Hiillkurve enthalt Information uber eine 
Transferfunktion des Vokaltrakts bei der Artikulation . 
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In einem stimmhaf ten Bereich wird die spektrale 
Hullkurve von den Formanten dominiert. Der 
Hochpafianteil einer hoheren Transf ormationsstuf e der 
Wavelet-Transformation enthalt diese .spektrale 
5 Hullkurve. 

c) Spectral Tilt (Rauchigkeit ) : 

Die Rauchigkeit in einer Stimme wird als negative 
Steigung im Verlauf des vorletzten Tiefpafianteils 
10 sichtbar. 



Die sprecherspezif ischen Charakteristika a) bis c) sind bei 
der Sprachsynthese von grofler Bedeutung. Wie eingangs 
erwahnt, bedient man sich bei der konkatenativen 

15 Sprachsynthese grofier Mengen realgesprochener Aufierungen, aus 
denen Beispiellaute ausgeschnitten und spater zu einem neuen 
Wort zusammengesetzt werden ( synthetisierte Sprache) . Dabei 
sind Diskontinuitaten zwischen zusammengesetzten Lauten von 
Nachteil, da diese vom menschlichen Ohr als unnaturlich 

20 wahrgenommen werden. Um den Diskontinuitaten entgegenzuwirken 
ist es von Vorteil, direkt die perzeptiv relevanten Grofien zu 
erfassen und ggf.zu vergleiche und/oder einander anzupassen. 

Dies kann geschehen durch direkte Manipulation, indem ein 
25 Sprachlaut in mindestens einer seiner sprecherspezif ischen 
Charakteristika angepafit wird, so dafi er in dem akustischen 
Kontext der konkatenativ verkniipften Laute nicht als storend 
wahrgenommen wird. Auch ist es moglich, die Auswahl eines 
passenden Lautes daran auszurichten, dafi sprecherspezif ische 
30 Charakteristika von zu verknupf enden Lauten moglichst gut 

zueinander passen, z.B. dafi den Lauten gleiche oder ahnliche 
Rauchigkeit zu eigen ist. 

Ein Vorteil der Erfindung besteht darin, dafi die spektrale 
35 Hullkurve den Artikulationstrakt des Sprechers widerspiegelt 
und nicht, wie z.B. ein Polstellenmodell , auf Formanten 
gestutzt ist. Weiterhin gehen bei der Wavelet-Transformation 
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als nichtparametrischer Darstellung keine Daten verloren, die 
Aufierung kann stets vollstandig rekonstruiert werden. Die aus 
den einzelnen Transf ormationsstuf en der Wavelet- 
Transformation hervorgehenden Daten sind linear voneinander 
5 unabhangig, konnen somit getrennt voneinander beeinflufit und 
spater wieder zu der beeinfluflten Aufierung - verlustlos - 
zusammengesetzt werden. 

10 Weiterhin wird eine Anordnung zur Bestimmung spektraler 

Sprachcharakteristika angegeben, die eine Prozessoreinheit 
aufweist, die derart eingerichtet ist, dafi eine Aufierung 
digitalisierbar ist. Daraufhin wird die Aufierung einer 
Wavelet-Transformation unterzogen und anhand 

15 unterschiedlicher Transf ormationsstuf en werden 
sprecherspezif ische Charakteristika ermittelt . 

Diese Anordnung ist insbesondere geeignet zur Durchfuhrung 
des erf indungsgemafien Verfahren's oder einer seiner vorstehend 
20 erlauterten Weiterbildungen . 

Weiterbildungen der Erfindung ergeben sich auch aus den 
abhangigen Anspruchen. 

25 Ausfuhrungsbeispiele der Erfindung werden nachfolgend anhand 
der Zeichnung dargestellt und erlautert. 

Es zeigen 

30 Fig.l eine Wavelet-Funktion; 

Fig! 2 eine Wavelet-Funktion, unterteilt nach Realteil und 
Imaginarteil; 

35 Fig. 3 eine kaskadierte Filterstruktur , die die 

Transformationsschritte der Wavelet-Transformation 
darstellt ; 
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Fig. 4 Tiefpafianteile unci Hochpafianteile unterschiedlicher 
Trans f ormationsstuf en; 

Fig. 5 Schritte der konkatenativen Sprachsynthese . 



Fig.l zeigt eine Wavelet-Funktion, die bestimmt ist durch 



f 

M>(f) - c - 



.-'AS 



2K °' (1), 



wobei 

f die Frequenz, 
a eine Standardabweichung und 
c eine vorgegebene Normierungskonstante 
bezeichnen. 

Insbesondere ist die Standardabweichung a bestimmt durch die 
vorgebbare Stelle des Seitenbandminimums 101 in Fig.l. 

Fig. 2 zeigt eine Wavelet-Funktion mit einem Realteil gemafi 
Gleichung (1) und einer Hilbert-Transf ormierten H des 
Realteils als Imaginarteil . Die komplexe Wavelet-Funktion 
ergibt sich somit zu 

*F(f) = v(f) + j • H{ V (f)} (2). 

Die Konstante c aus Gleichung (1) wird verwendet, urn die 
komplexe Wavelet-Funktion zu normieren: 

QO 

J *F(f) y(f) df = 1 {3)/ 
—oo 

wobei »F die konjugiert komplexe Wavelet-Funktion bezeichnet. 
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Fig. 3 zeigt die kaskadierte Anwendung der Wavelet- 
Transformation. Ein Signal 301 wird sowohl durch einen 
Hochpafi HP1 302 als auch durch einen Tiefpafi TP1 305 
5 gefiltert. Dabei findet insbesondere ein Subsampling statt, 
d.h. die Anzahl der abzuspeichernden Werte wird pro Filter 
reduziert. Eine inverse Wavelet-Transformation gewahrleistet, 
dafi aus dem Tiefpafianteil TP1 305 und dem Hochpafianteil HP1 
304 wieder das ursprtingliche Signal 301 rekonstruierbar ist. 

10 

Im Hochpafi HP1 302 wird getrennt nach Realteil Rel 303 und 
Imaginarteil Iml 304 gefiltert. 

Das Signal 310 nach dem Tiefpafif ilter TP1 305 wird erneut 
15 sowohl durch einen Hochpafi HP2 306 als auch durch einen 

Tiefpafi TP2 309 gefiltert. Der Hochpafi HP2 306 umfafit wieder 
einen Realteil Re2 307 und einen Imaginarteil Im2 308. Das 
Signal nach der zweiten Transf ormationsstuf e 311 wird wieder 
gefiltert, usf. 

20 

Geht man von einem ( FFT-transf ormierten) Kurzzeitspektrum mit 
256 Werten aus, so werden acht Transf ormationsschritte 
durchgefuhrt (Subsamplingrate : 1/2), bis das Signal aus dem 
letzten Tiefpafif ilter TP8 dem Gleichanteil entspricht. 

25 

In Fig. 4 sind verschiedene Transf ormationsstuf en der Wavelet- 
Transformation, unterteilt nach Tiefpafianteilen (Figuren 4A, 
4C und 4E) und Hochpafianteilen (Figuren 4B, 4D und 4F) 
dargestellt. 

30 

Aus dem Hochpafianteil gemafi Fig.4B ist die Grundf requenz der 
gesprochenen Aufierung ersichtlich. Neben den Schwankungen in 
der Amplitude ist deutlich eine uberwiegende Periodizitat im 
wavelet-gef ilterten Spektrum zu erkennen, die Grundf requenz 
35 des Sprechers. Anhand der Grundf requenz ist es moglich, 
vorgegebene Aufierungen bei der Sprachsynthese einander 
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anzupassen oder passende Aufierungen aus einer Datenbank mit 
vorgegebene Aufierungen zu bestimmen. 

Im Tiefpafianteil von Fig.4C sind als ausgepragte Minima und 
Maxima die Formanten des Sprachsignalausschnitts (die Lange 
des Sprachsignalausschnitts entspricht in etwa der doppelten 
Grundf requenz) dargestellt. Die Formanten reprasentieren 
Resonanzf requenzen im Vokaltrakt des Sprechers. Die deutliche 
Darstellbarkeit der Formanten ermoglicht eine Anpassung 
und/oder Auswahl passender Lautbausteine bei der 
konkatenativen Sprachsynthese . 

Im Tiefpafianteil der vorletzten Transf ormationsstuf e (bei 256 
Frequenzwerten im Originalsignal : TP7), kann die Rauchigkeit 
einer Stimme ermittelt werden. Der Abstieg des Kurvenverlauf s 
zwischen Maximum Mx und Minimum Mi kennzeichnet den Grad der 
Rauchigkeit . 

Die erwahnten drei sprecherspezif ischen Charakteristika sind 
somit identif iziert und konnen fur die Sprachsynthese gezielt 
beeinflufit werden. Dabei ist es insbesondere von Bedeutung, 
dafi bei der inversen Wavelet-Transformation die Manipulation 
eines einzelnen sprecherspezif ischen Charakteristikums nur 
dieses beeinflufit, die anderen perziptiv relevanten Grofien 
bleiben unberiihrt. Somit kann die Grundf requenz gezielt 
verstellt werden, ohne dafi dadurch die Rauchigkeit der Stimme 
beeinflufit wird. 

Eine andere Einsatzmoglichkeit besteht in der Auswahl eines 
geeigneten Lautabschnitts zur konkatenativen Verknupfung mit 
einem anderen Lautabschnitt , wobei beide Lautabschnitte 
ursprunglich von verschiedenen Sprechern in unterschiedlichen 
Kontexten aufgenommen wurden. Mit Ermittlung spektraler 
Sprachcharakteristika kann ein geeigneter zu verknupf ender 
Lautabschnitt gefunden werden, da mit den Charakteristika 
Kriterien bekannt sind, die einen Vergleich von 
Lautabschnitten untereinander und somit eine Auswahl des 



GR 98 P 1695 

9 

passenden Lautabschnitts automatisch nach bestimmten Vorgaben 
ermoglichen. 

Fig. 5 zeigt Schritte einer konkatenativen Sprachsynthese . 
Eine Datenbank wird mit einer vorgegebenen Menge 
natiirlichgesprochener Sprache verschiedener Sprecher 
erstellt, wobei Lautabschnitte in der natlirlichgesprochenen 
Sprache identif iziert und abgespeichert werden. Es ergeben 
sich zahlreiche Reprasentanten fur die verschiedenen 
Lautabschnitte einer Sprache, auf die die Datenbank zugreifen 
kann. Die Lautabschnitte sind insbesondere Phoneme einer 
Sprache oder eine Aneinanderreihung solcher Phoneme. Je 
kleiner der Lautabschnitt, desto grofier sind die 
Moglichkeiten bei der Zusammensetzung neuer Worter. So umfafit 
die deutsche Sprache eine vorgegebene Menge von ca. 4 0 
Phonemen, die zur Synthese nahezu aller Worter der Sprache 
ausreichen. Dabei sind unterschiedliche akustische Kontexte 
zu berucksichtigen, je nachdem, in welchem Wort das jeweilige 
Phonem auftritt. Nun-ist es wichtig, die einzelnen Phoneme in 
den akustischen Kontext derart einzubetten, dali 
Diskontinuitaten, die vom menschlichen Gehor als unnaturlich 
und "synthetisch" empfunden werden, vermieden werden. Wie 
erwahnt stammen die Lautabschnitte von unterschiedlichen. 
Sprechern und weisen somit verschiedene sprecherspezif ische 
Charakteristika auf. Urn eine moglichst nattirlich wirkende 
Aufierung zu synthetisieren, ist es wichtig, die 
Diskontinuitaten zu minimieren. Dies kann erfolgen durch 
Anpassung der identif izierbaren und modif izierbaren 
sprecherspezif ischen Charakteristika oder durch Auswahl 
passender Lautabschnitte aus der Datenbank, wobei ebenfalls 
die sprecherspezif ischen Charakteristika bei der Auswahl ein 
entscheidendes Hilfsmittel darstellen. 

In Fig. 5 sind beispielhaft zwei Laute A 507 und B 508 
dargestellt, die jeweils einzelne Lautabschnitte 505 bzw. 506 
aufweisen. Die Laute A 507 und B 508 stammen jeweils aus 
einer gesprochenen Aufierung, wobei der Laut A 507 deutlich 
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vom Laut B 508 verschieden ist, Eine Trennlinie 509 zeigt an, 
wo der Laut A 507 mit dem Laut B 508 verkniipft werden soil. 
Im vorliegenden Fall sollen die ersten drei Lautabschnitte 
des Lautes A 507 mit den letzten drei Lautabschnitten des 
5 Lautes B 508 konkatenativ verkntipft werden* 

Es wird entlang der Trennlinie 509 ein zeitliches Dehnen oder 
Stauchen (vergleiche Pfeil 503) der auf einanderf olgenden 
Lautabschnitte durchgef iihrt , urn den diskontinuierlichen 
10 Eindruck am Obergang 509 zu vermindern. 

Eine Variante besteht in einem abrupten Ubergang der entlang 
der Trennlinie 509 geteilten Laute. Dabei kommt es jedoch zu 
den erwahnten Diskontinuitaten, die das menschliche Gehor als 

15 storend wahrnimmt. Fugt man hingegen einen Laut C zusammen, 
dafi die Lautabschnitte innerhalb eines Ubergangsbereichs 501 
oder 502 beriicksichtigt werden, wobei ein spektrales 
Abstandsmafi zwischen zwei einander zuordenbaren 
Lautabschnitten in dem jeweiligen Obergangsbereich 501 oder 

20 502 angepafit wird ( allmahlicher Ubergang zwischen den 

Lautabschnitten) . Als das Abstandsmafi herangezogen wird 
insbesondere im Wavelet-Raum der euklidische Abstand zwischen 
den in diesem Bereich relevanten Koef f izienten. 



25 
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Patentanspriiche 

1. Verfahren zur Bestimmung spektraler Sprachcharakteristika 
in einer gesprochenen Aufierung, 

a) bei dem die AuBerung digitalisiert wird, 

b) bei dem die digitalisierte Aufierung einer Wavelet- 
Transformation unterzogen wird, 

c) bei dem anhand unterschiedlicher Transf ormationsstuf en 
der Wavelet-Transformation die sprecherspezif ischen 
Charakteristika bestimmt werden. 

2. Verfahren nach Anspruch 1, 

bei dem vor der Wavelet-Transformation eine gefensterte 
Transformation der digitalisierten Aufierung in einen 
Frequenzbereich durchgeftihrt wird. 

3. Verfahren nach Anspruch 2, 

bei dem die Transformation in den Frequenzbereich mittels 
Fast-Fourier-Transformation durchgef iihrt wird . 

4. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem in jeder Stufe der Wavelet-Transformation ein 
Tiefpafianteil und ein Hochpafianteil eines zu 

transf ormierenden Signals ermittelt werden. 

5. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem ein Hochpafianteil nach einem Realteil und einem 
Imaginarteil unterteilt wird. 

6. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die Wavelet-Transformation mehrere 
Transf ormationsstuf en umfafit, wobei die letzte 

Transf ormationsstuf e einen Gleichanteil der Aufierung in 
einer der Anzahl Transf ormationsstuf en entsprechenden 
wiederholten Tiefpafif ilterung lief ert . 
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Verfahren nach einem der vorhergehenden Anspruche, 

bei dem die sprecherspezif ischen Charakteristika bestimmt 

sind durch: 

a) eine Grundf requenz der gesprochenen Aufierung; 

b) spektrale Hiillkurve; 

c) einer Rauchigkeit der gesprochenen Aufierung. 

Verwendung des Verfahrens nach einem der Anspruche 1 bis 
7 zur Sprachsynthese, 

wobei einzelne sprecherspezif ische Charakteristika im 
Hinblick auf eine naturlich klingende Aneinanderreihung 
von ' Sprachlauten angepafit werden. 

Verwendung des Verfahrens nach einem der Anspruche 1 bis 
7 zur Sprachsynthese, 

wobei aus einer vorgegebenen Datenmenge diejenigen 
Sprachlaute anhand einzelner spektraler 
Sprachcharakteristika ausgewahlt werden, die eine * 
naturlich klingende Aneinanderreihung von Sprachlauten 
gewahrleisten. 



Anordnung zur Bestimmung spektraler Sprachcharakteristika 
in einer gesprochenen Aufierung 

mit einer Prozessoreinheit, die derart eingerichtet ist, 
dafi folgende Schritte durchfuhrbar sind: 

a) die Auflerung wird digitalisiert ; 

b) die digitalisierte Aufierung wird einer Wavelet- 
Transformation unterzogen; 

c) anhand unterschiedlicher Transf ormationsstuf en der 
Wavelet-Transformation werden die sprecherspezif ischen 
Charakteristika bestimmt. 
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Zusammenf assung 

Verfahren und Anordnung zur Bestimmung spektraler 
Sprachcharakteristika in einer gesprochenen .Aufierung 

5 

Es werden spektrale Sprachcharakteristika in einer 
nattirlichsprachlichen Aufierung bestimmt, wobei die Aufierung 
digitalisiert und einer Wavelet-Transformation unterzogen 
wird. Aus den unterschiedlichen Transf ormationsstuf en der 

10 Wavelet-Transformation gehen die sprecherspezif ischen 

Charakteristika hervor. Diese Charakteristika konnen im 
Rahmen einer Sprachsynthese mit Charakteristika anderer 
Aufierungen verglichen werden, urn ein fur das menschliche Ohr 
kontinuierlich klingendes synthetisches Sprachsignal zu 

15 erzeugen. Alternativ konnen die Charakteristika auch gezielt 
verandert werden, urn einer perzeptiven Dissonanz 
entgegenzuwirken . 
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2. Citations and explanations 

1. The invention concerns a method for determining 
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prior art, discloses a method for determining 
spectral voice characteristics in which a digitised 
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The inventors identify the technical problem that 
the method disclosed in Dl does not determine 
spectral voice characteristics in such a way as to 
enable a natural-sounding synthetic speech output. 
To solve the technical problem, the inventors thus 
propose determining speaker-specific characteristics 
in the different transformation steps of the wavelet 
transformation . 

The subject matter of the claim is novel. 
Furthermore, the prior art suggests nothing that 
would lead a person skilled in the art to the 
subject matter of Claim 1, and therefore the claim 
is non-obvious and consequently involves an 
inventive step. 
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2. Claim 10 concerns a device for determining spectral 
voice characteristics in' a spoken utterance- Since 
device Claim 10 corresponds to method Claim 1, Claim 
10 is likewise novel and inventive. 
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